该内容已被发布者删除 该内容被自由微信恢复
文章于 2022年6月9日 被检测为删除。
查看原文
被用户删除
其他

好文荐读|孔江平:生理语音学研究的理论与方法

孔江平 语言学心得 2022-06-09


好文荐读(第二十八期)生理语音学研究的理论与方法

好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~



生理语音学研究的理论与方法

 孔江平 

北京大学中国语言文学系

文章来源:孔江平.生理语音学研究的理论与方法[J].语言文字应用,2021(04):2-14.


摘要:本文主要介绍现代语音学中生理语音学研究的理论和方法。生理仪器可分为发音生理成像、发音生理运动捕捉和生理信号采集三类,根据这一分类,本文分别阐述了各种仪器的名称、工作原理、使用方法、参数提取、生理建模、理论研究的意义和应用价值,最后简单展望了生理语音学的理论研究和应用前景

关键词:生理语音学 生理仪器 语音生理研究 语音生理建模 语音生理应用基金资助:教育部重大项目“基于语音多模态的语言本体研究”资助(17JJD740001);感谢《语言文字应用》期刊授权推广,全文下载请点击文末“阅读原文”。

一、引言

基于不同的研究目的和研究方法,语音学研究通常可以分为传统语音学和现代语音学。传统语音学的研究方法通常称为“口耳之学”,主要是听音、辨音和记音(罗常培等,2002),其研究目的是为了语言田野调查。为此,人们发展出来了国际音标系统,从发音方法和发音部位两个维度定义语音。它涵盖了世界大部分语言的音素和发声类型。通过调查,人们发现世界上的语言大概有7000多种,有的语言学家认为至少也有4000多种(赖福吉等,2015)。研究发现,世界的语言大概有1000多个音素,这些音素能组合成大约几千个音节,但具体到每一种语言,大概只有几十个音素和一千左右的音节。大规模的语言田野调查使人们认识了全世界语言的轮廓,为语言学的研究奠定了基础。

现代语音学是以实证的科学方法研究语音问题,因此也可以称之为语音科学。从研究方法的角度,现代语音学主要分为声学语音学、生理语音学和心理语音学或认知语音学。从研究内容的角度,可以分为面向语言学的语音学、面向工程的语音学、司法语音学、病理语音学、声乐语音学等。现代语音学的研究方法主要是采用声学、生理学、心理学及认知科学的方法。声学的方法主要是对语音进行声学分析和声学信号的建模;生理的方法主要是利用一些现代医学设备对语言的发音动作和生理机制进行信号分析和建模研究;心理和认知的方法主要是对语音进行分析和合成,通过行为学的感知实验和脑电及磁共振实验,探求大脑对语音的认知规律。

从仪器和设备的角度,语音生理研究可以分为三类。第一类是发音生理成像,包括X光成像、螺旋CT成像、磁共振成像、声带高速数字成像和超声成像;第二类是发音生理运动捕捉,包括腭位照相、电子腭位采集、电磁舌位采集和红外运动捕捉;第三类是生理信号采集,包括喉头信号采集、呼吸信号采集、肌电和气流气压采集等。本文将从生理语音学的仪器、工作原理、信号采集方法、生理信号处理、语音生理建模、研究目的和理论贡献几个方面来讨论生理语音学研究的基本理论和方法。

二、 发音生理

成像最常用的发音生理成像仪器和设备有:视频录像、X光成像、螺旋CT成像、磁共振成像、超声仪成像和声带高速数字成像,通过发音器官成像可以研究语音生理的机制。下面就其工作原理、使用方法以及在生理语音学研究中的理论意义进行详细阐述。

(一)视频录像(Video Recording)

面部的视频信号采集是获取语音生理活动和表情的最简单、最直接的方法。从视频可以采集到许多有用的生理信号,如唇形的信号,包括外唇和内唇的高度、宽度和凸度。这些信息是描写元音以及研究协同发音的重要参数,图1(左)是一个二位唇形模型(潘晓声等,2014),图1(右)是一个采用语音驱动合成的三维模型(梁昌维,2021)。另外,从视频信号中还可以提取言语者的面部表情用于语音情感的研究。根据唇形和面部表情参数,可以建立人头部的虚拟发音模型,这种模型在语言习得中具有重要的意义,因为婴儿在习得语言的过程中是通过面部表情特别是唇形来建立语言的视觉系统。言语的视觉系统可以通过麦格克效应(McGurk effect)反映出来。比如给人放一个普通话ga音节的视频,但这个视频中的所配音频是ba, 那么人听到的则是da, 但如果闭上眼睛听,能听到仍然是ba。麦格克效应(McGurk effect)证明人的大脑中有两套系统,一套是视觉系统,一套是听觉系统。在语言习得中,这两套系统是同时建立的,当两套系统冲突时就会产生意想不到的效果,从而影响正常的交际。因此,视频语境对于语言习得和语言的大脑机制建立有重要的理论价值(Pan, 2015;Huang et al., 2018;潘晓声,2014;梁昌维,2021)。

图1(左)是二维模型,其中:h1是外上唇高,h2是外下唇高,h3是内上唇高,h4是内下唇高,w1是外唇宽度,w2是内唇宽度;图1(右)是一个采用语音驱动合成的三维唇形。

(二)X光成像(X-ray imaging)

在语音生理发音运动的研究中,最早使用的是X光机。X光于1895年由德国物理学家威尔姆·康拉德·伦琴发现。X光机发明后很快就被用于语音学研究,其原理是X光可以透过人体,在另一面通过普通照相技术将图像拍摄下来。由于当时语音学家一直想知道人的发音动作原理,所以X光出现以后就拍摄了不同语言的发音动作。采集的部位主要是人脸的侧面,可以实时拍摄,研究动态发音动作。利用计算机数字图像处理的方法可以提取出声道及舌头形状的边缘,然后根据这些形状再提取出具体的参数,如舌面最高点、舌尖、舌根、牙齿、软腭等。根据这些生理参数就可以对发音动作进行语音学分析和研究。X光的优点是可以进行实时的动态拍摄,缺点是对人体有伤害作用,也不能对某一个发音器官的断面进行定位并拍摄立体声道和发音器官。X光呈现的发音动作可以用于语音教学和声乐教学的演示以及语言病理的诊断,并建立相应的发音语音学理论。通过X光提取的参数可以研究发音生理和声学的关系,对生理发音动作进行建模,建立虚拟发音人系统,并通过发音模型来进行语音发音理论的研究。图2是利用X光采集的普通话声道中矢状面图和经过处理的声道轮廓线图(汪高武等,2008;张金光,2018)。X光的出现对语音学的理论做出了很大的贡献,特别是人们对动态的发音生理和声学的关系有了进一步的认识。


图2(左)普通话X光声道中矢状面图;(中)声道中矢状面轮廓线图;(右)二维声道模型图

(三)螺旋CT成像(Spiral CT imaging)

螺旋CT是基于X光的一种仪器,其原理和X光相同。它可以进行旋转定位成像,所以可以拍摄定位的图像和立体的影像,在医学上对检测病灶有特定的功能。在语音学的研究中可以进行声道中矢状面的拍照和三维立体声道的拍照,也可以用来拍摄三维肺部的影像。由于其成像是分层的,图像的信号处理和参数的提取相对容易。在提取参数后可以用于建立二维和三维的声道模型。螺旋CT的缺点是有X光辐射,对人体有伤害。另外,还有一个缺点是不能进行实时动态的信号采集,这样就无法拿到动态的发音器官图像。利用螺旋CT采集的数据可以研究语音发音动作的静态模型,可以进行语音声学和生理关系的理论研究。

(四)磁共振成像(Magnetic resonance imaging)

磁共振成像技术是现代医学技术中最重要的发明之一,其原理是利用磁共振对生理机体进行成像。磁共振对有血液的软组织成像比较好,对骨骼的成像较差。利用磁共振技术可以对发音器官进行三维立体的成像,对研究声道的形状和几何模型非常有用(汪高武等,2017)。在语音学研究上,主要是采集声道、喉头和肺部的三维立体图像。由于磁共振成像可以精确定位,因此,可以采集发音器官和声道任何一个切面的清晰图像,之后可以对其进行图像处理,从中提取有用的参数,基于这些参数可以研究发音器官和声道的关系。磁共振的优点是对人体无伤害,可以做任何断面的成像,而且图像清晰,有利于参数的提取。另外,磁共振不仅可以用于发音器官的研究,还可以对大脑进行成像,研究语言认知。在国际上利用磁共振技术研究语音感知已经取得了很好的成果。磁共振的缺点是目前大部分的磁共振仪器还不能做高速成像,因此只能做静态发音动作的研究。近几年,由于技术的发展,磁共振已经可以拍动态的二维图像,速度可以达到每秒17帧,这样就可以进行动态的发音研究。基于磁共振的三维声道数据可以用来做言语产生的理论研究,如言语产生的量子理论研究,因此,我们可以说磁共振成像是现代语音学研究的一个重要工具。图3是利用磁共振成像技术拍摄的普通话[a、i、u]的三维立体声道(姚云,2016)。


图3(左)普通话[a]的三维声道;(中)普通话[i]的三维声道;(右)普通话[u]的三维声道

(五)超声仪成像(Ultrasound imaging)

超声仪是工程探伤和医学成像常用的一种仪器,其原理是用超声作为声源发射,然后采集反射回来的超声波,根据反射的情况形成图像,进行工业产品裂缝的探测或医学成像诊断。在语音学研究上,通常用超声设备来研究舌位的变化。将超声仪置于下颌的下方,然后进行发音或歌唱,其成像可以反映舌面的运动(吴西愉,2019)。通常拍摄超声图像需要有经验的医生来进行操作和判断。经过信号处理,将舌面的线条检测出来,然后提取舌面线条参数进行语音学的研究。为了提高超声的准确性,可以拍一张发音人声道中矢状面的磁共振图像,加载在超声仪的显示屏幕上,这样就可以看出舌头运动的相对位置。超声的优点是可以实时地采集舌头运动的信号,也可以携带到田野调查现场进行采集,而且对人体无害(兰正群等,2017)。缺点是不能很清楚地反映舌尖和舌根的运动。在声乐研究中,超声可以来研究歌唱和呼麦等特殊的发音。利用超声得到的参数也可以进行舌头运动的建模研究,模型可以用于语音教学和声乐发声教学以及病理语音的康复,对语音学和声乐学具有理论指导意义。

(六)高速数字成像(Highspeed digital imaging)

高速数字成像是用极高的速度来拍摄照片。早期的高速成像用胶片来进行拍摄。除了工程上的用途,在医学上主要是用于拍摄声带的振动。由于使用胶片成本非常高,而且拍摄的速度不够均匀,其应用受到了限制。在20世纪六七十年代,由于电子视频技术的发展,胶片拍摄逐渐被电子视频技术替代,最终形成了高速数字成像技术。在语音的研究中,主要是利用高速数字成像技术拍摄声带的振动方式,通常有两种方法。一种是用硬的光导纤维,另一种是从鼻腔进入的软光导纤维。前者只能拍摄单元音,而后者可以拍摄整个言语过程的声带振动。由于一些发声类型,如假声的基频非常高,因此通常情况下,以每秒钟4000帧以上的采样频率拍摄声带的振动,才能还原不同的发声类型。高速数字成像需要进行前期的图像处理,包括光线的调节、图像的旋转以及抖动的消除等,然后才可以从中提取出相关参数,主要参数包括声门面积、左声门面积、右声门面积、前声门面积和后声门面积,也可以提取声门的左半径、右半径、前半径和后半径,这些都是非常重要的参数(Yiuetal.,2010;Kongetal.,2011),见图5。利用这些参数可以对不同的发声类型进行分析和研究。高速数字成像研究声带振动的优势在于它可以还原声带振动的过程,提取出声门面积的变化,并利用提取出来的参数进行声带振动建模。其缺点是拍摄高速数字成像非常困难,发音人在光导纤维进入鼻腔拍摄前需要喷一点麻药,因而发音会受影响。由于气流的冲击,光导纤维的镜头会产生抖动,这些抖动给后来的图像处理研究带来了困难,所以这种方法不能进行大量言语声带振动的拍摄。而且拍摄必须由医生来操作,在语音学研究中受到了很大的限制。声带振动的高速数字成像有十分广泛的用途,如我们可以直接看到语言发声类型的变化;在声乐中,我们可以看到更为复杂的声带振动过程。通过高速数字成像的参数可以建立一个嗓音振动的生理模型,利用这种模型可以模拟不同语言的发声类型、声乐的唱法以及病变的嗓音(Kong, 2007、2015)。因此,高速数字成像在医学上,对于嗓音病理诊断和手术方案确定都有重要的价值。在语言发声类型的研究上,对语音学、言语工程和有声文化展示都有重要的基础理论意义和实际的应用价值(Kong et al.,2013)。


三 、发音生理运动捕捉

最常用的发音生理运动捕捉仪器和设备有:腭位照相、电子腭位仪、电磁发音仪和运动捕捉仪,这些设备通过在发音器官上贴采集点获取相关参数。下面就其工作原理、使用方法以及在生理语音学研究中的理论意义进行详细的阐述。

        (一)腭位照相(Palatal photography)

腭位照相是语音学中最早采用生理实证数据对发音动作进行描写的一种方法。其原理是在舌尖和舌面涂上颜色,然后进行发音。发音后舌头上的颜色会印在牙齿、齿龈或硬腭的接触部位。通过照相拍下舌腭接触的面积和位置,主要是辅音的发音动作接触面积和位置,然后提取参数用于语音发音动作的描写研究。腭位照相的研究方法并不复杂,而且现在还在使用。这种方法的优点是操作简单,在田野调查过程中可以使用这种方法对不确定的辅音发音动作进行实证的描写。腭位照相的缺点是每次只能测一个发音动作的舌腭接触面积,不能做动态的数据采样和研究。这种方法在语音学的基础理论研究中有一定的作用。

    (二)电子腭位仪(Electronic palatal photography)

随着电子技术的发展和计算机的使用,人们发明了电子腭位。电子腭位采集需要先做一个假腭,通常使用62点的假腭,见图6。当舌头接触假腭时就会产生点状的图像记录。电子腭位采到的数据是每一个点的记录,由点组成了62个点的接触面积,因此,在信号处理上比较容易,把这些参数提取出来进行分类即可进行发音动作的研究。电子腭位的优点是它可以采集动态的语音发音动作,而且可以大量地实时采集,也可以和语音同时采集,这样非常有利于发音动作和语音关系的研究。缺点是人们要事先做一个适用于特定发音人的假腭,因此不能直接在田野调查时采集数据。在某种程度上,假腭会影响发音人的发音,要经过一段时间的适应才能习惯佩戴假腭发音。电子腭位发明的初衷是为了腭裂儿童手术后的语言康复训练。随着技术的发展,假腭制作的成本越来越低,推动了电子腭位的研究。电子腭位的数据不仅可以进行语音学的发音动作研究,也可以进行言语应用系统的建模,有着广泛的应用前景。利用假腭数据建立的模型不仅可以用于语音教学和声乐教学,还可以用于腭裂儿童语言康复的训练。在语言学研究方面,假腭产生的数据对于研究协同发音和语音增强有着非常重要的理论意义(李英浩等,2011;Li et al.,2013)。


        (三)电磁发音仪(Electromagnetic articulography)

电磁发音仪也称电磁发音动作采集仪,其原理是利用电磁在空间运动留下的轨迹反映物体的空间运动。这种仪器主要是为语音学研究设计,不用于医学上的诊断和治疗。其信号的采集方法是将一个小的电磁感应器贴在舌头的某个部位,用一根导线接到电磁发音仪上。发音人在一个电子磁场中,当舌头运动时,贴在舌头上的感应器在这个磁场中的相对位置发生变化,其变化会记录在电磁发音仪上。电磁发音仪在采集信号时,可以贴一个点,也可以贴多个点。当信号记录下来以后,可以对信号的空间位置进行分析和研究。电磁发音仪的优点是可以同时记录舌头不同位置三维立体的动态移位,并用这些参数来研究语音的舌位运动状态(胡方,2004、2014)和构建舌头运动的模型(智娜等,2020)。电磁发音仪的缺点是操作复杂,而且其记录的位移有一定的误差,使用起来非常困难,在语音学研究中并没有得到普及。从目前的情况来看,电磁发音仪主要是应用在语音学动态舌位的研究方面,没有其他的用途。在语音学理论研究方面,电磁发音仪可以用于动态舌位的建模,有一定语音学理论意义。

(四)运动捕捉仪(Motioncapture)

运动捕捉仪是捕捉生理运动的一种设备,其原理是利用红外线来捕捉一个物体运动的轨迹,被广泛用于运动和舞蹈数据的采集。通常运动捕捉仪可以用于人体某一个部位运动轨迹的采集,信号可以用于人体运动学及舞蹈动作的研究,也可以采集面部固定位置的变化用于面部表情的建模,在三维动画片的制作上有广泛应用。采集信号的具体方法是将对红外线反射极强的点,贴在人体或人面部某一个位置,当人体运动或面部表情发生变化时,红外摄像镜头会持续采集这些点的三维空间位置,并将其存入计算机。计算机处理这些运动轨迹即可以来进行模型的研究。运动捕捉仪的优点是可以对运动的物体进行大规模的动态数据采集,并进行三维的建模。缺点是会产生噪声信号,因为在采集的过程中会有跳点,需要后期的信号处理。在语音学的研究中,可以用它来采集唇形的内边缘和外边缘轮廓,用这些数据进行动态语音的建模。总体而言,外唇形采集较为准确,而内唇形会产生一些误差。利用运动捕捉可以同时采集唇形、面部表情和语音用于语音情感的研究,为建立虚拟发音人提供很好的表情数据。在语音学的基础研究方面,主要是用于建立三维唇形模型,进行语音麦格克效应的研究(潘晓声等,2016)。

如图7所示,图7(左)是利用运动捕捉仪采集的数据建立的面部和唇形的三维立体模型,图7(右)是模型的侧面图。

四、生理信号采集

最常用的生理信号采集仪器和设备有:喉头仪、呼吸采集仪、气流气压鼻流计和肌电仪。下面就其工作原理、使用方法以及在生理语音学研究中的理论意义进行详细阐述。


(一)喉头仪(Laryngograph,Electrog-lotograph)

喉头仪是一种医学嗓音仪器,其工作原理是在两个信号采集贴片上加上电位,当两个采集贴片之间的电阻发生变化时,就可以将变化的信号记录下来。喉头仪主要用于医学嗓音病变的检测。采集信号时,将两个采集贴片贴在喉头的两侧,声带振动时,声带接触面积的变化引起的电阻变化就被记录下来。在信号采集时,由于男性的喉结较为突出,因此比较容易采集。女性的喉结比较小,所以信号采集效果没有男性好。另外,胖的人不太容易采集,而脖子比较细和喉头比较突出的人比较容易采集。由于喉头仪工作原理上的一些原因,采集的信号经常会伴有噪音,喉头仪信号中的噪声可以通过降噪的方法来进行预处理。由于喉头的上下运动,喉头仪信号中会有一个反映喉头上下运动的低频信号,对于这种信号可以通过高通滤波的方法滤掉,最终得到干净的喉头仪信号。在研究中,这种喉头的上下运动也可以被用来进行喉头运动的建模。


如图8所示,自上而下是8中常见的语言发声类型:1)正常嗓音;2)高音调嗓音;3)低音调嗓音;4)气嗓音;5)挤喉音;6)紧嗓音;7)双音调嗓音;8)耳语。

喉头仪的优点是信号直接采自喉头,没有经过口腔的共鸣,因此是纯粹的嗓音信号,可以对信号直接进行分析和研究。它的缺点是信号的变化主要反映的是声门闭合相的变化,而从语音逆滤波得到的声源,主要是开相的变化,两者是不同的。利用喉头信号提取的参数可以进行许多发声类型的研究,首先是可以进行嗓音病变的研究。当声带发生病变时,如声带息肉和麻痹,喉头仪参数可以将其与正常发声类型做对比,从而确定病变的发声类型。第二,从喉头仪提取的三个基本参数:基频、开商和速度商,可以很好地描写语言中各种不同的发声类型,利用这三个参数可以画出三维的嗓音声学图、建立声门模型(Kong, 2001)。目前在中国的语音学研究中,用喉头仪参数定义语言发声类型已不可缺少,被广泛运用于发声类型和情感语音的嗓音研究(Kong, 1998、1999)。


(二)呼吸采集仪(Respiratory collector)

呼吸采集仪是一种人体运动研究的仪器,具体方法是将呼吸带绑在胸围上测量呼吸的运动过程,通常可以采集胸呼吸或腹呼吸的信号,也可以同时采集胸呼吸和腹呼吸信号,如图9所示。在国内,北京大学语言学实验室最早使用呼吸采集仪来研究语音。呼吸采集仪可以反映人们在说话或者歌唱时呼吸的节奏和模式。利用语言的呼吸节奏,可以研究语言的句法结构和韵律特征(杨锋等,2013、2016、2017)。从呼吸信号中可以提取呼吸重置参数,如呼吸重置的时间、呼吸重置的幅度和呼吸的时长(谭晶晶等,2008)。呼吸通常可分为三级,有些情况下呼吸可以分为四级,如新闻的播报。利用呼吸信号还可以建立语言的呼吸模型,因此,呼吸对于基础的语音学研究、韵律研究及声乐研究都有非常重要的价值。

图9(左)胸呼吸和腹呼吸信号;(中)肺部磁共振信号;(右)三维肺模型


(三)气流气压计和鼻流计(Airbarometer&nasal flowmeter)

气流气压计和鼻流计是研究人体生理呼吸系统的一种医学仪器,也可应用于语言研究。其原理是通过测量人们口鼻呼吸的流量和呼吸气压的变化,反映呼吸和言语的关系。在语言研究中,主要是用来研究声带的振动过程以及各种不同的发声类型。使用气流气压计时要将面罩戴在口上,收集气流气压的变化信号。也可以采集口腔气流和鼻腔气流的变化,用于研究语音的元音、鼻音和元音鼻化(Lietal.,2015;Wangetal.,2019;吕士良,2018)。从气流气压信号中也可以提取嗓音的信号,如基频、开商和速度商等基本参数(胡阿旭等,2011)。气流气压计的优点是可以随时进行实时的信号采集,但是它的缺点是对环境的温度和海拔比较敏感,在每次使用时都必须用仪器进行校准,否则采集的信号会产生误差。通过气流气压计可以建立嗓音模型研究语言的发声类型,在嗓音发声类型研究中有非常重要的价值。


(四)肌电仪(electromyograph)

肌电仪是一种研究人体肌肉运动的生理仪器,用于采集人体肌肉运动时的生物电变化情况。采集方法是将贴片放在一条肌肉的两端,当肌肉收缩时,肌肉的生物电变化便被记录下来,但当肌肉非常小的时候,就需要用金属线插在肌肉里,这样才能采集到比较微弱的肌电信号。肌电信号的变化情况能够反映出肌肉的运动过程和强度。肌电仪的优点是可以用贴片采集比较大的肌肉运动,缺点是语言相关的肌肉都比较小,采集上有一定的困难,需要有医生的指导,特别是在采集喉头非常微小的肌肉信号时,只有经验丰富的医生才能做到。由于采集肌电信号十分困难,在语音学研究中使用的较少(Neilageetal.,1964;Baeretal.,1988)。

四、生理语音学的应用及展望

语音的生理研究和声学研究有很大的不同。声学研究是为了研究语音的声学性质,最终做出语音合成系统或识别系统,直接用于人类语言的交际。生理研究则涉及发音器官的各个部分,可以针对某个部分进行研究。从以上研究也可以看出,语音生理设备大多数是医学设备,以言语发音的医学治疗为目的。因此,语音的生理研究在医学上,尤其是在语言康复领域有很大应用价值。除此之外,在语言学领域,语音的生理研究还可应用于以下几个方面:

第一,唇形反映人面部表情的研究可以建立生理发音系统用于语音的教学,特别是第二语言的教学,帮助学习者建立语言习得中的视觉系统。语音的唇形模型还可以用于聋哑人唇读的教学。唇形和面部表情模型还可以用于动画片的制作,使动画角色的语音和唇形动作相匹配。另外,对于唇的研究使我们意识到了麦格克效应的重要性,它在电影的配音和歌曲的填词方面都有重要的应用价值。

第二,电子腭位研究所得到的舌腭接触模型可以用于建立腭裂儿童语言康复的教学系统。这种教学系统一定要符合特定语言的特点,不同语言的教学系统会有很大差异。目前还没有适用于普通话的电子腭位教学系统,因此迫切需要深入研究。

第三,声道研究可以建立声道的几何模型,它在语言教学和有声文化的展示方面具有广泛的用途。该模型与一般的虚拟发音人不同。虚拟发音人只能进行外部的呈现,而声道几何模型可以看到内部每一个发音器官的活动情况。另外,几何模型也可以用于建立语言教学的视觉反馈系统。所谓视觉反馈系统,就是根据一个人的发音,模拟出发音器官的相应运动,这样发音人可以看到自己的发音动作是否正确,系统本身也可以告知应该如何调整发音动作。这种视觉反馈系统,随着人工智能技术的出现和完善,是完全可以实现的。

第四,利用喉头仪参数建立的模型,可以应用于嗓音病变的诊断和治疗,同时也可以建立一个系统来判断一个人的发声特性。比如我们根据8个年龄段(800人)的普通话资料,建立了一个嗓音模型。任何一个人只要发一个持续元音“a”,嗓音模型就能判断出来发音人所属年龄段及其嗓音类型,这种模型也可以直接用于嗓音病理的诊断。利用嗓音的参数还可以做声区的测验,显示出一个人说话的声区和歌唱的声区,也可以对不同人、不同演唱形式的声区进行比较。另外,利用这种反映声带振动的嗓音模型,还可以建立一个发声类型训练系统,比如它可以判断出一个声音是昆曲的发声还是京剧的发声。这种系统在大数据支持下是很容易实现的,非常有利于声乐教学。

第五,高速数字成像的研究可以建立一个声带振动的几何模型,这种几何模型可以运用在嗓音术前和术后的模拟方面,通过这种模拟了解嗓音术后的声音效果,对医学的手术和研究有重要价值。另外,嗓音的几何模型也可以用于语言的教学以及有声文化的展示,人们可以直观地看到声带的振动情况。在我国,生理语音学才刚刚起步,目前主要集中在普通话的生理模型研究方面。随着生理技术的进步和研究的深入,不同语言的生理语音学模型会逐步建立,生理语音学在推进语言学和语音学理论研究发展的同时,也展现出越来越广泛的应用前景。

篇幅有限,参考文献略

作者简介


    

    孔江平1957年生,2003年起就职于北京大学中文系,教授、博士生导师。现任北京大学语言学实验室主任、中国语言学会语音学分会主任,主要研究领域为中国境内语言的语音学研究、嗓音发声类型研究、汉语普通话发音生理模型研究、中华传统有声文化的声学、生理和认知研究等;主要专著有 Laryngeal Dynamics and Physiological Model 和《论语言发声》。曾主持中国社会科学重大招标项目“中国有声语言和口传文化保护与传承的数字化方法及其理论研究”。

本文来源:语言文字应用

点击文末“阅读原文”可跳转下载


新年特辑|2022年春晚中的方言


好文荐读|张博、黄玉花:汉语连动式的事件结构认知研究


学术会议|第八届全国话语语言学学术研讨会


招  聘|中国社会科学院2022年博士后招收公告



“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群请备注“学校+研究方向”

:纯爷

&

微信:xindejun_yyxxd

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存